请教一个哈希算法的问题:BKDRHash的seed是为什么是31、131、1313、13131、131313...,别的数字不行吗?
算法如下:
template<class T>
size_t BKDRHash(const T *str)
{
register size_t hash = 0;
while (size_t ch = (size_t)*str++)
{
//也可以乘以31、131、1313、13131、131313...
hash = hash * 131 + ch;
}
return hash;
}
参考文章《字符串Hash函数对比》http://blog.csdn.net/icefireelf/article/details/5796529
类似地,RSHash的63689、378551是如何而来,能否替换为其他数字?
63689、378551都是质数,而BKDRHash中的除了31、131是质数外,1313、13131、131313都是合数(查质数表)
/// @brief RS Hash Function
/// @detail 因Robert Sedgwicks在其《Algorithms in C》一书中展示而得名。
template<class T>
size_t RSHash(const T *str)
{
register size_t hash = 0;
size_t magic = 63689;
while (size_t ch = (size_t)*str++)
{
hash = hash * magic + ch;
magic *= 378551;
}
return hash;
}
其实我问这个问题是为了应用BloomFilter,这个算法需要k个不同的哈希函数,“选择k个不同的哈希函数比较麻烦,一种简单的方法是选择一个哈希函数,然后送入k个不同的参数。”我想知道的是,把RSHash的63689和378551修改为另外两个大素数,是否会导致散列分布没有原算法均匀。
参考文章《BloomFilter——大规模数据处理利器》
http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html
算法如下:
template<class T>
size_t BKDRHash(const T *str)
{
register size_t hash = 0;
while (size_t ch = (size_t)*str++)
{
//也可以乘以31、131、1313、13131、131313...
hash = hash * 131 + ch;
}
return hash;
}
参考文章《字符串Hash函数对比》http://blog.csdn.net/icefireelf/article/details/5796529
类似地,RSHash的63689、378551是如何而来,能否替换为其他数字?
63689、378551都是质数,而BKDRHash中的除了31、131是质数外,1313、13131、131313都是合数(查质数表)
/// @brief RS Hash Function
/// @detail 因Robert Sedgwicks在其《Algorithms in C》一书中展示而得名。
template<class T>
size_t RSHash(const T *str)
{
register size_t hash = 0;
size_t magic = 63689;
while (size_t ch = (size_t)*str++)
{
hash = hash * magic + ch;
magic *= 378551;
}
return hash;
}
其实我问这个问题是为了应用BloomFilter,这个算法需要k个不同的哈希函数,“选择k个不同的哈希函数比较麻烦,一种简单的方法是选择一个哈希函数,然后送入k个不同的参数。”我想知道的是,把RSHash的63689和378551修改为另外两个大素数,是否会导致散列分布没有原算法均匀。
参考文章《BloomFilter——大规模数据处理利器》
http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。
我想知道的是,把RSHash的63689和378551修改为另外两个大素数,是否会导致散列分布没有原算法均匀